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摘 要 : NWR 数据 库 的 写 延 时 估计 ， 可 用 于 发 现实 现 集群 构建 和 运行 成 本 最 小 化 的 节点 数量 、 副 本 因子 的 配置 组 合 

现 有 基于 基准 测试 或 模拟 队列 的 方法 受 限 于 特定 的 测试 配置 和 测试 环境 ， 只 能 给 出 写 延 时 随 配置 变动 的 粗略 结果 。 从 
分 析 NWR 数据 库 Cassandra 的 写 操作 的 (n, r, k) Fork-Join 队列 结构 入 手 ， 给 出 了 该 类 队列 期 望 过 留 时 间 的 解析 解 和 
NWR 数据 库 写 延 时 的 理论 模型 , 可 用 于 建立 更 完备 的 写 延 时 结论 。 分 别 在 模拟 队列 和 Cassandra 集群 上 验证 了 (n, r, 
k) 队列 解析 解 和 写 延 时 模型 的 准确 性 
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Abstract: The exact approximation of write latency for NWR databases under various consistency levels can serve the building 


and operating of database clusters, by finding the optimal combination of cluster size and replication factor that minimizes the 


building and operating cost. Existing benchmarking or queue simulating based approaches can only give incomplete results as 


they are limited to specific configurations and testbeds. This paper depicted the first close-form analysis of (n, r, k) fork-join 


queueing process of Cassandra (a typical NWR database) write operations, based on which this paper proposed the first 
theoretical write latency model for NWR databases. The model is capable of giving more comprehensive latency results. 
Experiments validated the close-form analysis of (n, r, k) fork-join queues and the write latency model respectively on simulated 
queues and a Cassandra cluster. 
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控制 节点 接收 Join) 到 第 W 个 答复 后 ， 给 出 客户 端 写 请 求 已 

成 功 执行 的 响应 。 
NWR 是 一 种 流行 的 Key-Value 数据 库 一 致 性 策略 : 1) 每 显然 在 NWR 数据 库 中 , 写 操作 的 延 时 由 集群 节点 数量 工 、 

个 Key-Value 对 被 存储 在 位 于 N 个 位 于 不 同 节点 的 副本 中 ;2) 副本 因子 N、 一 致 性 水 平 W 共同 决定 。 一 般 而 言 , 工 越 大 、N 
完成 读 操 作 至 少 需要 读 取 R 个 副本 中 最 新 的 数据 ; 3) 完成 写 越 大 、W 越 小 ， 延 时 越 小 。 但 L 越 大 ， 集 群 的 构建 成 本 越 大 ; 
操作 至 少 需要 成 功 写 入 W 个 副本 ; 4) 当 R+W>N 时 可 以 保 NEK, 集群 在 存储 和 操作 上 的 运行 成 本 越 大 。 鉴 于 NWR 数 
证 读 到 最 新 写 入 的 数据 。Amazon Dynamo 和 Apache 据 库 集群 往往 针对 特定 目标 场景 负载 的 SLA “服务 水 平 协议 ) 
CassandraDm] 是 两 个 流行 的 采用 了 NWR 一 致 性 策略 的 Key-Value ME, 需 满 足 SLA 中 对 各 种 一 致 性 水 平 下 的 写 延 时 的 要 求 。 通 
数据 库 〈 以 下 简称 NWR 数据 库 )。 行 做 法 是 ， 提 供 尽 可 能 大 规模 的 集群 和 较 高 设置 的 副本 因子 ， 
Æ NWR 数据 库 中 , 写 操作 是 通过 Fork-Join 队列 分 发 到 各 以 保证 在 极端 负载 压力 下 仍 能 满足 写 延 时 要 求 ， 但 这 往往 导致 
个 副本 上 并 发 执行 的 : a) 客户 端 提交 的 写 操作 在 控制 节点 被 复 系统 资源 和 能 源 的 浪费 。 准 确 估计 各 种 一 致 性 水 平和 负载 压力 
fill (Fork) AN 份 ， 分 发 到 目标 记录 所 在 的 N 个 副本 节点 上 ; 下 的 NWR 数据 库 的 写 延 时 ， 可 用 于 发 现 满足 延 时 要 求 的 最 小 
b) 每 个 副本 节点 写 完成 后 , 给 出 控制 节点 操作 完成 的 答复 ; c) 的 L、N 组 合 ， 从 而 为 成 本 最 小 化 集群 的 构建 和 配置 提供 重要 
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录用 稿 王 华 进 ， 等 : 基于 (mtk)Fork-Join 队列 分 析 的 NWR 数据库 写 延 时 模型 
参考 依据 。 后 向 控制 节点 发 回答 复 ; 3) 控制 节点 收 到 〈Join) 前 大 个 节点 


现 有 针对 Cassandra 等 NWR 数据 库 的 操作 延 时 分 析 方 法 ”的 答复 后 ， 对 客户 端 发 出 作业 完成 的 响应 ，4) 剩余 ;个 节 
主要 有 : a) 基于 基准 测试 的 方法 86-9， 采 用 分 布 式 数据 库 的 主 。 ”点 上 的 子 任务 会 继续 执行 ( 非 清 除 ) ， 但 其 结果 无 须 控制 节点 处 理 。 
流 基 准 测 试 工具 得 出 实际 集群 在 各 种 节点 数量 、 副 本 因子 、 一 
致 性 水 平 、 负 载 压力 下 的 读 写 操作 延 时 。 但 限于 基准 测试 不 能 
穷尽 所 有 的 配置 组 合 ， 这 些 工 作 只 是 各 自给 出 了 延 时 随 部 分 配 
组 合 变动 的 粗略 趋势 , 并 不 能 证 明 其 结论 具有 普遍 适用 性 ( 完 
备 性 ) sb) 基于 模拟 队列 的 方法 -1， 构 建 与 Cassandra 等 数据 
库 的 读 写 操作 执行 过 程 等 价 的 模拟 队列 网 络 (Queue Network), 
过 运行 模拟 队列 而 非 实际 集群 获取 延 时 数据 ， 以 减轻 测试 的 
开销 。 由 于 模拟 队列 的 结构 和 参数 都 只 是 对 真实 集群 在 特定 配 
和 负载 下 的 近似 ， 其 测试 结果 的 可 靠 性 要 差 于 基准 测试 ， 
且 所 得 出 的 结论 同样 是 粗略 、 不 完备 的 。 

本 文 给 出 了 NWR 数据 库 的 写 延 时 理论 模型 。 该 模型 的 输 
入 参数 为 最 高 一 致 性 水 平 (W-N ) 下 的 写 操作 在 不 同 配置 组 
合 下 的 期 望 延 时 , 输出 为 各 种 较 弱 一 致 性 水 平 C( W =1,2,....N—1) 
下 的 写 操作 在 相关 配置 组 合 下 的 期 望 延 时 的 估计 值 。 输 入 参数 定义 2 MEDS MITT T,- ISB (n,r,k) Fork-Join 队 
既 可 以 通过 理论 计算 获取 ， 也 可 以 借助 基准 测试 获取 。 借 助 该 PUEDE TP, 为 : 当 该 队列 在 负载 因子 p 下 达到 稳 态 
模型 进行 同等 规模 的 基准 测试 可 以 获取 更 为 详细 和 完备 的 写 延 。 时 , 一 个 新 作业 从 在 控制 节点 被 Fork 开始 计时 到 在 控制 节点 完 
时 结论 。 该 理论 模型 的 推导 建立 在 对 Cassandra 写 过 程 的 排队 ” ”成 Join 结束 计时 ， 所 经 历 的 时 间 间 隔 的 期 望 值 。 
结构 (n,r,k) Fork-Join 队列 的 逗留 时 间 的 定量 分 析 上 。 现 有 1.1 一 般 服务 时 间 队 列 的 分 析 
人 六 如 队列 逗留 时 间 的 研究 仅 给 出 了 较为 粗略 的 上 下 界 04。 本 BIB BA 2 个 服务 时 间 分 布 相同 的 Fork-Join 队列 , 其 中 
文通 过 证 明 (n, r, k) 队列 的 期 望 喜 留 时 间 为 基本 Fork-Join 队列 ”一 个 为 处 于 负载 因子 p 下 的 非 清除 rk) 队列 ， 另 一 个 为 处 


总 


1 一 个 非 清除 (5,3,2) Fork-Join 队列 示例 : 


PR 


红色 子 任务 正在 被 服务 


0 


ee 于 负载 因子 TP 下 的 非 清除 o,r, k) 队列 。 在 忽略 了 渐进 独立 性 
的 nr, k) 队 列 分 析 转 换 为 较为 容易 的 (iD 队列 分 析 。 最 后 ， 
通过 解剖 Cassandra 写 过 程 的 排队 结构 ， 将 (n,x,k) 队列 的 定量 ”05 的 情况 下 ， 上 述 两 个 队列 的 期 望 豆 留 时 间 相同 ， 即 : 
分 析 应 用 于 实际 数据 库 写 延 时 的 估计 上 。 M 

本 文 的 主要 贡献 为 : a) 第 一 次 给 出 了 (n,n,k) Fork-Join 队 Tre = Tira” 
列 期 望 逗 留 时 间 的 确切 解析 表达 式 ， 并 在 独立 同 指数 服务 时 间 证 明 EER (nr, k) 队列 和 (x,r,) 队列 中 ,一 个 新 到 达 的 


分 布 的 (n,r,k) Fork-Join 模拟 队列 上 验证 了 该 表达 式 的 准确 性 ;作业 都 会 有 7x 个 子 任务 分 配 到 7 个 不 同 子 队 列 中 ， 并 等 待 前 
b) 第 一 次 给 出 了 NWR 数据 库 写 延 时 的 理论 模型 ， 并 在 实际 个 子 任 务 完成 。 由 于 每 个 节点 被 选中 运行 子 任务 的 概率 相同 ， 


Cassandra 集群 上 验证 了 该 理论 模型 的 适用 性 。 (nr k) 队列 的 每 个 子 队列 承受 的 子 任务 到 达 率 与 (x,x,k) 的 子 
1 JEB (n, r, k) Fork-Join 队列 分 析 队列 承受 的 子 任务 到 达 率 均 为 芭 ， 又 由 于 所 有 子 队列 的 服务 
n 


本 文 考虑 一 个 由 n 个 节点 构成 的 集群 ， 其 中 每 个 节点 i 时 间 分 布 相同 ， 因 此 在 两 种 队列 达到 稳 态 后 ， 所 有 子 队 列 的 期 
(1<i<n) 处 理 同类 作业 子 任务 时 的 服务 时 间 X 具有 相同 的 概 ， 望 长 度 相同 。 设 随机 变量 8 表示 一 个 子 任务 在 子 队列 y PRE 
率 分 布 ( 即 节点 同 质 )。 每 个 节点 上 有 一 个 先 到 先 服务 的 子 队列 | 留 时 间 ， 次 序 统计 量 Soy 表示 S,,S,,...8, 的 第 大 次 序 统计 量 。 
4 ， 假 定子 队列 容纳 能 力 无 限 。 令 : 到 达 率 4 表示 单位 时 间 内 ”在 忽略 了 渐进 独立 性 喇 的 情况 下 : T = ES] > 


提交 到 集群 的 作业 数量 ， 服 务 率 j 表示 单位 时 间 内 一 个 子 队 列 1p 
Te = ElSe o] ° 


可 以 完成 服务 的 子 任务 数量 ， 人 负载 因 子 p= 和 。 | 二 
H 定理 1 非 清 除 (n,r,k) Fork-Join 队列 的 期 望 逗 留 时 间 


定义 1 非 清除 (n,x,k) Fork-Join 队列 。 如 图 1 所 示 , 在 X 
一 个 由 个子 队列 组 成 的 非 清除 (n,x,k) Fork-Join 队列 中 : 1) 
客户 端 提交 的 作业 在 到 达 控制 节点 时 被 复制 Fork) 为 r 个 相 a=: 
同 开 销 的 子 任务 ， 每 个 子 任务 被 分 配 到 r 个 不 同 节点 上 运行 ， 
每 个 节点 被 选中 运行 子 任务 的 概率 相同 ; 2) 节点 执行 完 子 任务 l Ez 


录用 稿 


1 i=j, 


j+l<i<r. 


TS。 根据 文献 9 的 定理 5 可 知 ， 


值得 注意 的 是 ， 定理 1 的 成 立 无 须 假设 子 队 列 的 服务 时 间 
相互 独立 。 
定理 2 非 清除 (nrk) Fork-Join 队列 的 期 望 喜 留 时 间 
rAE[X¢. ] 
2n—rAELX,,.y]) 


Tirk 


的 上 下 界 为 : Tra >T? > AX, + 


rAELXO. o] | 
2(n-rAE[X,,. vD 
独立 同 指数 分 布 的 。 其 中 ELX ool ER rA TFAAR E 
变量 X,,X,,....X, We 次 序 统 计量 的 期 望 。 
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轻 负载 ) 


望 逗 留 时 间 C 
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—r -APP p:0.6 —+—-SIM p:0.8 —x-APP p:0.8 — SIM p:0.9 
+ ? 


— -APP p:0.01 一 -SIM p:0.2 —x-APP p:0.2 — -SIM p:0.4 
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等 : 基于 (n,r,Kk)Fork-Join 队列 分 的 上 号 过 时 入 型 


王 华 进 ， 
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日 2 然 的 。 
证 明 Te， aT", =A, pl SBS ol T, EFR 


n,r,k TAR 


根据 文献 4 的 定理 4 可 推 得 到 达 率 TZ FRISA! (r,r, k) Fork- 


n 


Join 队列 “ 即 作 业 join 完成 后 ， 剩 余 任务 被 从 各 子 队列 和 运行 
态 中 立即 清除 ) WAEA 
O EXC]  ， 又 根据 文献 bg 的 定理 10， 独 立 同 
2(n—rAELX,, 1) 
指数 服务 时 间 分 布 的 上 述 
rAELX?, œ] 
2n—rAELX,, »))) 
期望 逗留 时 间 的 下 界 不 小 于 上 述 下 界 。 
根据 定理 1 和 定理 2， 非 清除 (n r, e) 队列 的 期 望 喜 留 时 间 
TP, 的 求解 可 以 转换 为 较 容易 计算 的 Ci ii) 队列 的 期 望 带 留 时 
间 To, 和子 队列 服务 时 间 的 次 序 统计 量 X，， 。 


ELX oy] + 


TBR AL A TE SOR A TA 


， 显 然 此 处 的 非 清除 (rr, k) 队列 的 


FLX (414 


-r+ APP p:0.9 一 -SIM p:0.95 “>> APP p:0.95 * 
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1.2 指数 服务 时 间 队 列 的 估计 
鉴于 独立 同 指数 服务 时 间 分 布 的 (i,i,i) Fork-Join 队列 的 期 
EU PAINT TA ,存在 较为 准确 的 Nelson 估计 方法 ll, 本 文 在 定 
理 3 中 给 出 该 类 队列 期 望 逗 留 时 间 的 估计 值 。 
定理 3 服务 时 间 为 独立 同 指数 分 布 的 非 清 除 (n,7,k) 
Fork-Join BAW) H9 HH eB ae. BA AY fay: 


LowT? 


yee =min(max(NelsonT/ ank 


nr. n,r,k? 


), Opie) 
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图 2 服务 时 间 为 独立 同 指数 分 布 的 非 清除 (n, r, k) Fork-Join BA 3 (93) 238 BAIN RE (SIM) 与 估计 值 CAPP) 的 对 比 (w=1) 


nr P 12n-rp 
u(n-rp) 88u(n-rp) 
a nH, 
Nelso17 , = 2 
EST 
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录用 入 王 华 进 ， 等 : 基于 (nunik)Fork-Join 队列 分 析 的 NWR SEB BIE RA! 
n kei 数量 达到 一 致 性 要 求 的 下 限 大 时, 就 给 出 客户 端 写 完 成 的 响应 。 
UpT?., = u(n-=rp) 当 Coordinator 本 身 是 副本 节点 时 , 称 之 为 本 地 Coordinator, A 
mr nore |B Af o] ez 则 为 远程 Coordinator。 默 认 配 置 下 ， 一 条 Key-Value 记录 顺 时 
8u(n—rp)|H, lin H, 针 连 续 地 存放 在 集群 的 x 个 节点 上 ， 其 中 第 1 个 节点 的 位 置 是 
PEART, H, i5. AHAB Hun n e ; 通过 对 Key alias 式 可 以 基本 保证 

mii ii Ui — p) 各 个 节点 存储 同等 数量 的 Key-Value 记录 。 
证 明 将 文献 上 的 式 (6) 代 入 定理 1 可 以 得 出 Th: 的 具体 Cassandra 内 部 采用 了 SEDA (Staged Event-Driven 
估计 值 NelsonT?, , ; 将 文献 1 的 式 (6) 代 入 定理 2 的 下 界 可 以 得 ”Architecturejua 的 设计 框架 ， 将 写 操作 表达 为 一 个 由 Native- 
E Te ,的 下 界 LowT?,。 很 容易 得 出 7 个 独立 同 指数 分 布 的 服 Transport-Requests, Mutation, RequestResponse 等 步骤 组 成 的 


H-H 将 ， 串 行 操作 序列 。 每 个 步骤 包含 一 个 处 理 线程 池 ， 空 闲 线程 从 
个 事件 到 达 队 列 中 取 操 作 请 求 并 执行 ， 执 行 结果 送 入 下 一 个 步 

该 值 代入 定理 2 的 上 界 得 出 UpT2,。 由 于 单独 使 用 NelsonT,,。 ”又 的 到 达 队 列 。 写 操作 的 具体 实现 为 a》 客户 端的 请 求 送 到 
作为 估计 值 可 能 带 来 较 大 的 误差 中 ， 采 用 上 下 界 UpT?,、 Coordinator 的 Native-Transport-Requests 阶段 的 到 达 队 列 , 该 阶 
LowTf, , 对 信 计 值 进行 了 限定 。 段 首先 获取 目标 副本 所 在 的 节点 信息 ， 然 后 通过 
如 图 2 所 示 ， 采 用 模拟 值 (SIM) 对 从 定理 3 中 得 出 的 估  MessagingService 组 件 将 写 操作 传输 到 每 个 副本 节点 的 
计 值 (APP) 进行 了 验证 。 针 对 每 一 组 (nrk) ， 给 模拟 器 Incoming 队列 ; b) 副本 节点 上 的 Mutation 阶段 从 Incoming BA 
Fokulator-p! 施 加 指定 负载 压力 ( p ) 的 作业 到 达 流 。 当 队列 到 列 中 获取 并 执行 写 请 求 〈 追 加 Commitlog 和 写 入 Memtable ); 
达 稳 态 后 ， 以 10% 的 采样 率 获得 100000 个 样本 作业 的 延 时 均 。 c) 副本 节点 通过 MessagingService 组 件 将 写 操作 的 执行 结果 传 
输 回 Coordinator 的 Incoming 队列 ; d) Coordinator 的 
RequestResponse 阶段 读 取 并 计算 Incoming 队列 中 答复 写 操作 
从 图 2 中 可 以 看 出 ， 与 模拟 值 对 比 ， 估 计 值 的 误差 在 大 部 的 消息 数量 ; e) 若 该 数量 达到 一 致 性 水 平 要 求 的 下 限 ， 则 向 客 
GARE p> 08) Ee NR 户 端 发 出 最 终 响 应 。 由 于 上 述 各 阶段 的 队列 长 度 上 限 为 za _ 1 ， 
r 因此 当 不 对 操作 施加 timeout 限制 时 ， 所 有 阶段 的 到 达 队 列 都 

差 较 为 明显 (大 于 25%)。 这 是 由 于 : 当 p 较 大 时 , 通过 Nelson 可 近似 为 非 损 失 制 。 
估计 方法 得 出 的 J 的 误差 较 大 ; 而 较 小 时 , 更 多 的 ae EDI, Cassandra 号 操作 的 执行 过 程 非常 适合 采用 本 六 
id bini 定义 的 非 清除 or 旭 Fork-Join 队列 进行 描述 。 本 文 将 写 操作 

项 被 积累 到 了 估计 值 里 。 未 来 本 文 可 以 通过 改进 指数 队列 To， 的 每 个 内 部 执行 步 又 视 为 队列 服务 过 程 的 一 部 分 ， 得 出 如 图 4 
的 估计 方法 ， 降 低 该 误差。 所 示 的 简化 Cassandra 写 操作 排队 模型 。 


2 Cassandra 写 操作 排队 分 析 


Cassandra 写 操作 的 执行 架构 如 图 3 所 示 。 


务 时 间 变 量 的 第 UCR STI LX. = 


值 为 模拟 值 。 误 差 率 的 计算 公式 为 An -1 。 
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分 情况 下 较为 可 控 。 只 有 
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图 4 Cassandra 写 操作 的 简化 Fork-Join 排队 模型 : 


图 3 Cassandra 写 操作 的 执行 架构 远程 写 ( 左 )、 本 地 写 ( 右 ) 
4) 客户 端 (Cassandra Driver) 向 由 nn 个 节点 构成 的 Cassandra Cassandra 客户 端 可 以 设置 不 同 的 负载 均衡 策略 来 控制 


集群 提交 写 操作 请 求 ， 所 连接 的 节点 成 为 Coordinator; b) Coordinator 的 选取 : TokenAwarePolicy 优先 使 用 本 地 
Coordinator 将 写 命令 发 送 到 存储 有 目标 记录 副本 的 r 个 节点 上 《Coordinator， 若 所 有 本 地 Coordinator 过 载 ， 则 尝试 使 用 远程 
( 即 副本 因子 为 r); c) 当 Coordinator 从 副本 节点 收 到 的 回复 Coordinator; RoundRobinPolicy 等 概率 选取 集群 中 的 所 有 节点 


u 


1 https://github.com/excelwang/forkulator-p 
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录用 稿 王 华 进 ， 等 : 基于 (n,r,k)Fork-Join 队列 分 析 的 NWR HBAS enw 
作 为 Coordinator; HostFilterPolicy 可 以 指定 具体 节点 做 时 机 节点 作为 测试 床 。 每 个 测试 节点 的 配置 为 : 双 路 Intel Xeon 


Coordinator。 由 于 本 地 Coordinator 下 的 写 操 作 (本 地 写 ) 的 服 E5-2603 v3 处 理 器 、64GB 内 存 、3.6 TB 机 械 磁 盘 、 万 兆 以 太 
务 时 间 远 小 于 远程 Coordinator 下 的 写 操 作 (远程 写 ) 的 服务 时 网 互 连 。 测 试用 Cassandra 版 本 为 3.11.0。 副 本 因子 在 1~5 变 
间 ， 写 延 时 模型 必须 反映 本 地 写 的 比例 。 据 此 本 文 得 出 如 下 写 


动 ， 一 致 性 水 平 从 ONE (k =1) QUORUM (=| "41 h), ALL 
延 时 模型 。 2 
定理 4 运行 在 一 个 同 质 集群 上 的 Cassandra 数据 库 的 写 (=n ) 中 选取 ,施加 的 目标 负载 压力 标记 为 +1 。 本 文 为 各 副本 
操作 期 望 延 时 模型 为 因子 预先 创建 一 个 表 空 间 (keyspace )， 并 各 存 入 1 亿 条 Key- 
Tee, 51x LT + (DxRT,. Value 记录 。 
其 中 : 为 获取 定理 4 给 出 的 延 时 模型 的 输入 参数 并 详细 界定 该 延 
RIT? =S WERT? 时 模型 的 适用 范围 ， 本 文 设 计 了 “ 微 测 试 ? 和 “扩展 测试 ?两 种 实 
n,r,k a i iii 验方 案 。 
TP 
LT ii k=l, 
Lek =) 24 rp E se 
“ > WRT k22 = 600 
(ets ii E 400 
加 
到 200 a benth: A= 1200 y y approx: \=51200 
模型 输入 参数 : a) 1 为 本 地 写 的 比例 ; b) ire 为 本 地 写 0 + + bench: A=102400 x x approx: 和 =102400 
1,1,1 
CD 在 负载 压力 为 2, 节点 数 、 副 本 因子 、 一致 性 水 平均 为 1 时 的 
HHH ZEI: re 为 远程 写 在 负载 压力 为 2 
UE 延 时 ; ©) pyn, 人 _1<i< 门 为 远程 写 在 负载 压力 为 
sey 节点 数 〈 不 计 入 Coordinator 节点 )、 副 本 因子 、 一 致 性 水 平均 i 
为 i 时 的 期 望 延 时 。 上 述 参数 共计 rx-kt4 个 。 me 
参数 ] 可 以 从 负载 均衡 策略 中 推出 ， 如 RoundRobinPolicy 
-可 对 应 的 1 = 二 、 轻 量 级 负载 下 TokenAwarePolicy 对 应 的 1 -1 ; 参 
数 iT All RIS 既 可 以 从 本 地 写 /远程 写 的 服务 时 间 的 概率 分 
1,11 iti 
= z Ha 5 RT EA 
O 布 中 估算 得 出 〈 参 见 节 1.2， 及 一 般 服务 时 间 分 布 的 (2.7) 队列 a a 
Kon = 、 Coats Pace doca: 全 部 本 地 写 ，remote: 全 部 远程 写 ) 
的 期 望 逗 留 时 间 的 估计 方法 4920), 也 可 以 用 基准 测试 测 得 的 延 
时 样本 均值 估计 。 
3 ”实验 Š BORE gy 
5 x 
四 x 
本 文通 过 实验 测 得 由 6 个 同 质 节点 组 成 的 Cassandra 集群 E a poten da 4 sere tae 
+ bench: A= x x approx: à= 42000 
在 不 同 副本 因子 (x )、 一 致 性 水 平 Ck )、 负 载 均衡 策略 (7)、 SGGRAN ES 
PREJ Co) 下 的 写 延 时 ， 并 与 基于 定理 4 的 延 时 模型 得 出 GSUSSS GEGGOGOS GOGSSSSSS ODD 
CLVoLY ot Vat Yat Y se Yot Unt Y at Yat tury 
的 估计 值 进 行 比较 ， 以 验证 延 时 模型 的 适用 性 。 其 中 : a) 测 出 Se 6 80 85 ob Os oe 2 8 ee eee 
值 通过 Cassandra 自 带 的 查询 追踪 (Trace) 功能 得 出 ， 其 精度 1 
为 微 秒 级 (10-6。 )。 由 于 查询 追踪 本 身 的 开销 不 可 忽略 ， 限 定 2 
一 个 写 操作 被 追踪 的 概率 不 大 于 6% 。 测 试 中 ， 每 秒 提交 写 操 


作 的 数量 标记 为 4 ， 写 操作 的 提交 间隔 依照 指数 分 布 exp(4) 选 


取 ;b) 预测 值 通过 将 从 集群 测 出 的 7 振 和 pr SARERA 


11,1 iii 


COOCOO Oooo OWOWWWWOODOO0 OWOWWWOOWOW 
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为 得 出 可 比较 和 可 重复 的 测 出 值 ， 本 文 尽 可 能 固定 除 副本 jé ERPE pe KNE i 7 peers ” 
re 2 图 计 值 与 扩展 测试 测 出 全 的 对 ocal: EË 号， 
因子 、 一 致 性 水 平 、 负 载 压力 、 负 载 均衡 策略 之 外 的 变量 (如 


remote: 全 部 远程 写 ，RR: RoundRobinPolicy) 


写 操作 的 数据 量 )， 并 采用 6 台 位 于 同一 机 架 的 相同 配置 的 物 


201805.00273v1 
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录用 稿 


3.1 微 测试 
微 测试 在 不 同 副本 因子 、 一 致 性 水 平 、 
衡 策略 下 大 量 重复 执行 针对 同 


负载 压力 、 负 载 均 
个 Key-Value 记录 的 写 操作 ， 


China iv 合 乍 期 - | 
王 华 进 ， 等 : 基于 (nrlOJFork-Join 队列 分 析 的 NWR 数据 库 写 延 时 模型 


各 种 较 弱 一 致 性 水 平 〈W =12,,N-1) 下 的 写 操作 在 相关 配 
组 合 下 的 期 望 延 时 的 估计 值 。 如 节 3 所 述 ， 本 文采 用 基准 测 


试 测 出 理论 延 时 模型 的 输入 参数 。 显 然 ， 在 进行 同等 开销 的 基 
准 测试 时 ， 理 论 延 时 模型 可 以 得 出 比 仅 采用 基准 测试 多 N-1 倍 


以 :1) 获取 延 时 模型 的 输入 参数 PAM pra: D 校 验 基于 
1,1,1 iii 


(n,r,k) Fork-Join 队列 的 简单 形式 (x,x,k) 队列 的 延 时 模型 估 
计 Cassandra 数据 库 单一 写 操作 延 时 的 适用 性 。 其 中 ， 负 载 均 
衡 策略 是 基于 HostFilterPolicy 定制 实现 的 全 部 本 地 写 策 略 
(local) 和 全 部 远程 写 策略 (remote )。 这 两 种 策略 对 应 的 延 时 
模型 1 参数 值 分 别 为 1 和 0。 

每 种 配置 组 合 的 测试 结果 抽样 率 为 1%， 样 本 数 为 60000。 
实验 结果 如 图 5 所 示 。 延 时 模型 的 估计 值 (approx) 较为 接近 
测 出 值 (bench)， 基 本 验证 了 延 时 模型 估计 单一 写 操作 延 时 的 


适用 性 ， 其 中 误差 率 的 计算 为 approx _1 。 
bench 


注意 图 中 的 4 只 是 测试 程序 施加 的 压力 目标 ， 受 限于 
Python 测试 脚本 自身 的 开销 、 基 于 sleepO 函 数 间隔 相 邻 操作 的 
精度 、Cassandra 集群 的 实际 处 理 能 力 , 实际 负载 压力 要 低 于 目 
标 压力 。 
3.2 扩展 测试 

扩展 测试 在 不 同 副本 因子 、 一 致 性 水 平 、 负 载 压 力 、 负 载 
均衡 策略 下 大 量 执行 混合 在 一 起 的 针对 不 同 Key-Value 记录 的 


写 操作 ， 以 : a) 获取 延 时 模型 的 输入 参数 jj 了 和 pra: D) 
LLI iii 


校 验 Cassandra 写 延 时 模型 估计 混合 写 操作 延 时 的 适用 性 。 混 
合 测试 负载 的 构造 确保 了 每 个 节点 等 概率 地 成 为 Coordinator, 
且 承 受 同等 压力 的 副本 写 入 请 求 ， 以 尽 可 能 反映 实际 场景 下 负 
载 在 各 节点 上 的 均衡 分 配 特性 。 其 中 ， 被 测试 的 负载 均衡 策略 


ina 


ch 


包括 全 部 本 地 写 、 全 部 远程 写 和 RoundRobinPolicy, ix 3 种 策 
各 对 应 的 延 时 模型 1 参数 值 分 别 为 1、0、r/n。 

每 种 配置 组 合 的 测试 结果 抽样 率 为 6%, 全 部 本 地 写 、 全 部 
远程 写 、RoundRobinPolicy 的 样本 数 分 别 为 4200、60000、4200。 
实验 结果 如 图 6 所 示 : 延 时 模型 的 大 部 分 估计 值 Capprox) 非 
常 接 近 测 出 值 (bench)， 基 本 验证 了 延 时 模型 估计 混合 写 操作 
延 时 的 适用 性 。 注 意图 中 的 4 同样 为 目标 值 ， 实 际 达 成 的 负载 
压力 水 平 低 于 该 值 。 

值得 注意 的 是 , 图 6 中 的 基准 测试 测 出 值 和 延 时 模型 估计 
值 均 显示 了 : 在 相同 副本 因子 、 一 致 性 水 平 、 负 载 压力 下 ， 全 
部 本 地 写 、RoundRobinPolicy、 全 部 远程 写 这 3 种 负载 均衡 策 
各 的 写 延 时 呈 递 增 趋势 . 从 该 结果 可 以 推断 : TokenAwarePolicy 
均衡 策略 〈 该 策略 与 全 部 本 地 写 策略 相近 ，! 值 均 为 1) 要 优 于 
RoundRobinPolicy 均衡 策略 。 


4 it 
如 引言 所 述 ， 该 理论 模型 的 输入 参数 为 最 高 一 致 性 水 
CW=N) 下 的 写 操作 在 不 同 配置 组 合 下 的 期 望 延 时 ， 输 出 为 


N 


的 延 时 结论 。 
节 3 初步 验证 了 本 文 提 出 的 NWR 数据 库 理论 延 时 模型 的 
准确 性 ， 但 通过 基准 测试 获取 模型 参数 的 开销 较 大 。 更 为 理想 
的 方案 是 ， 只 需 通 过 实验 测 出 无 压力 下 本 地 写 和 远程 写 操作 的 
服务 时 间 分 布 ， 然 后 借助 该 分 布 计算 出 上 述 参数 在 各 种 负载 压 
力 下 的 估计 值 。 
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图 7 Cassandra 集群 的 远程 写 服务 时 间 分 布 〈 样 本 量 50000) 


前 独立 同 指 数 服务 时 间 分 布 的 Gi,i,i) Fork-Join 队列 的 
期 望 逗 留 时 间 存 在 较为 准确 的 估算 方法 0 。 但 本 文 实验 测 出 的 
服务 时 间 分 布 并 不 符合 指数 分 布 ( 见 图 7)。 尽 管 对 于 一 般 服 务 
时 间 分 布 的 Gi,i,i) 队列 ， 存 在 一 些 基 于 插值 2 和 回归 P9 的 估计 
方法 ， 但 其 准确 性 依赖 于 所 测 出 的 服务 时 间 分 布 的 精度 。 受 限 
于 测量 精度 ， 本 文 测 出 的 服务 时 间 的 分 布 并 不 十 分 稳定 。 这 也 
是 目前 Fork-Join 队列 的 理论 研究 〈 如 文献 0n420) 鲜 有 能 被 实际 
集群 验证 的 原因 , 大 部 分 工作 只 是 给 出 了 在 模拟 队列 上 的 验证 。 
未 来 ， 本 文 将 进一步 研究 更 为 鲁 棒 的 一 般 服 务 时 间 (i,i,i) 队列 
的 估计 方法 。 


5 ”相关 工作 


5.1 Fork-Join 队列 分 析 

虽然 (i,i,i) 队列 是 最 基本 的 Fork-Join 队列 ， 当 ;> 2 时 其 期 
望 有 逗留 时 间 仍然 没有 确切 的 解析 解 ， 只 有 一 些 估计 方法 存在 。 
如 : Nelson 等 人 117 给 出 了 指数 服务 时 间 分 布 的 (i,i,i) 队列 的 期 
望 逗 留 时 间 估计 式 ; 针对 服务 时 间 分 布 较为 一 般 的 (i,i,i) 队列 
Varma 等 人 09 提 出 了 基于 插值 的 估计 方法 ，Thomasian 等 人 P29 
提出 了 基于 测试 结果 回归 分 析 的 的 估计 方法 ,Rizk SE APA h 
T 4 F Bk(martingales) Hy EJ, Fidler 等 人 P3] 给 出 了 多 步骤 Fork- 
Join 队列 网 络 的 上 下 界 。 本 文 提 出 的 延 时 模型 的 准确 性 依赖 于 
上 述 估计 方法 的 准确 性 。 
对 于 清除 型 (x,x,k) 队列 的 期 望 逗 留 时 间 : 仅 当 k =1 时 存在 
确切 的 解析 解 P23; 大 >2 时 仅 存在 较为 粗略 的 上 下 界 0420。 对 
于 非 清 除 cr, AZIR HE AHS E: Fidler 等 人 3] 给 出 了 较为 
粗略 的 非 渐进 统计 型 上 下 界 ，Wang 等 人 09 给 出 了 基于 线性 变 
换 的 确切 解析 解 ， 并 用 该 解 改进 了 清除 型 (x,r,k) 队列 的 期 望 豆 
留 时 间 的 上 界 。 


针对 nr 的 一 般 (n, rk) DOU Ee a T 


la], Joshi 等 人 


0 给 出 了 清除 型 队列 的 上 下 界 。 本 文 在 Wang 等 人 09 工 作 的 基 


NWR 数据 库 延 时 分 析 
目前 针对 Cassandra 等 NWR 


础 上 第 一 次 给 出 了 非 清除 (n, rk) 队列 的 确切 解析 解 。 


TT 


数据 库 的 操作 


延 时 分 析 , 主要 
分 为 基于 基准 测试 的 方法 和 基于 模拟 队列 的 方法 。 
通过 基准 测试 分 析 NWR 数据 库 性 能 的 工作 B-9 采 用 主流 


的 分 布 式 数 据 库 基准 测试 工具 YCSBP9， 分 析 包 括 节点 数量 、 
副本 因子 、 一 致 性 水 平 、 负 载 压 力 等 配置 变量 对 读 写 操作 延 时 


的 影 


Ho BRP SE ME 


$s 


则 试 不 能 穷尽 所 有 的 配置 组 合 ， 这 些 工作 只 


是 各 自给 出 了 延 时 随 配置 变量 变动 的 粗略 趋势 。 此 外 ， 测 试 结 


果 是 基于 特定 负载 


的 特定 集群 得 出 的 ， 
有 普遍 适用 性 〈 完 备 性 )。 与 之 相 比 ,本 文 给 出 综合 了 各 配置 变 


量 的 通用 写 延 时 
验证 模型 适用 性 的 辅助 手段 。 


E 论 模型 ,基准 测 


于 对 目标 数 


不 能 证 明 其 结论 具 


试 只 是 用 来 获取 模型 的 参数 、 


通过 模拟 队列 分 析 NWR 数据 库 性 能 的 主要 思路 是 : 
居 库 读 写 操作 过 程 的 详 


队列 网 络 (Queue Network); 2) 通过 


1) Æ 


分 析 建 立 与 之 等 价 的 模拟 
基准 测试 确定 模拟 队列 的 


服务 时 间 、 网 络 传输 延 时 等 各 种 参数 ; 3) 针对 一 些 配置 变量 组 
合 运 行 模拟 队列 ， 以 获取 目标 配置 下 的 延 时 。 如 : Huang 等 人 
中 详细 分 析 了 Cassandra 写 操作 的 执行 过 程 和 队列 结构 ; Osman 


分 析 J 


ag USES 


Cassandra 的 读 操作 的 队列 结构 ， 并 使 用 


Queueing Petri Nets 对 其 模拟 。 其 他 相关 工作 有 [23。 相 比 基 准 


测试 ， 这 类 工作 减轻 了 测试 的 运行 开销 ， 但 


arg 


构 很 难 完 全 反映 真实 集群 的 内 部 结 


集群 在 各 类 负载 下 的 实际 值 ， 


si 


可 靠 性 要 差 于 基 


6 RE 


于 模拟 队列 的 结 
各， 其 参数 也 很 难 概括 真实 
导致 基于 模拟 队列 的 测试 结果 的 
会 测试。 此 外 其 结论 同样 是 粗略 有 


不 完备 的 。 


于 NWR 数据 库 的 广泛 应 用 


尤其 是 节点 数量 、 副 本 因子 、 一 致 和 


作 延 时 的 影响 日 显 重要 。 现 有 基于 媒 


awd 


， 对 该 类 数据 库 的 性 能 分 析 ， 
FE 水 平 、 负 载 压力 对 读 写 操 
值 测试 或 模拟 队列 的 分 析 


方法 存在 结论 粗略 、 完备 性 欠缺 等 问题 。 本文 : a) 从 分 析 NWR 


居 库 写 操作 的 排队 模型 一 一 非 清 


手 ， 第 一 次 给 出 了 该 类 队列 的 


期 望 喜 留 时 间 的 解析 解 ， 
立 同 指数 服务 时 间 分 布 的 模拟 (n, r, k) 队列 上 验证 
准确 性 ; b) 基于 上 述 解析 解 ， 第 一 次 给 出 了 NWR 数据 库 的 理 


BR (n,r,k) Fork-Join 队列 入 


了 解析 解 的 


在 独 


入 为 最 高 一 致 性 CALL) 下 的 


HE ak EY ff 


论 延 时 模型 。 该 模型 可 以 反映 不 同 节点 数量 、 副 本 因子 、 一 致 
性 水 平 、 负 载 压力 、 负 载 均 衡 策略 对 写 延 时 的 影响 。 模 型 的 输 
的 基准 测试 测 出 值 或 理 
论 估计 值 , 输出 为 其 他 一 致 性 (ONE, QUORUM 等 ) 下 的 期 望 


延 时 估计 值 。 相 较 已 有 工作 ， 


于 该 模型 得 出 的 结论 更 为 说 


和 完备 。 本文 在 NWR 数据库 Cassandra f 


延 时 模型 的 适用 性 
未 来 的 研究 
留 时 间 的 解析 解 ， 


向 包括 : a) 借 助 非 清除 (n, r, k) 队列 的 
改进 清除 型 (n,7,k) 


队列 的 


的 真实 集群 上 验证 了 写 


HH tae 


HY Eee FA ERY Tad AI E 


ChinaXiv 合 作 期 刊 


Ft; b) 借助 Limited Processor Sharing (LPS) 排 队 理论 C1， 将 


A 
Cassandra SEDA 每 个 阶段 的 线程 池 的 大 小 纳入 延 时 模型 ， 
使 其 可 以 反映 不 同 线程 数 对 写 延 时 的 影响 ; c) 更 为 鲁 棒 的 一 般 
服务 时 间 (i,i,i) 队列 的 划 
少 延 时 模型 的 输入 参数 ;，d) 更 为 综合 


访 


从 而 


望 逗 留 时 间 估 计 方 法 ， 从 而 进一步 减 
I 负载 (不 同 读 写 比例 、 
问 数 据 的 分 布 、 整 体 数据 的 分 布 ) 的 延 时 模型 ;，e) 满足 SLA 


延 时 要 求 且 能 够 实现 集群 构建 和 运行 成 本 最 小 化 的 节点 数 和 副 


本 


刀子 的 配置 组 合 的 计算 方法 。 
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